在线自主代理能够利用各种潜在的任务知识来源;但是,目前的方法总是只关注一两个。在这里,我们调查了利用多样化知识源以一记模拟的家用移动机器人的新任务学习的挑战和影响。在SOAR认知体系结构中开发的最终代理使用以下域和任务知识来源:与环境的互动,任务执行和规划知识,人类自然语言指导以及从大语言模型(GPT-3)检索到的响应。我们探讨了这些知识来源的不同贡献,并在学习正确的任务知识,人力工作量和计算成本方面评估了不同组合的性能。结合所有来源的结果表明,整合可以在计算成本和人力工作量方面改善一声任务学习。
translated by 谷歌翻译
Three main points: 1. Data Science (DS) will be increasingly important to heliophysics; 2. Methods of heliophysics science discovery will continually evolve, requiring the use of learning technologies [e.g., machine learning (ML)] that are applied rigorously and that are capable of supporting discovery; and 3. To grow with the pace of data, technology, and workforce changes, heliophysics requires a new approach to the representation of knowledge.
translated by 谷歌翻译
As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.
translated by 谷歌翻译
肾细胞癌(RCC)是一种常见的癌症,随着临床行为的变化。懒惰的RCC通常是低级的,没有坏死,可以在没有治疗的情况下监测。激进的RCC通常是高级的,如果未及时检测和治疗,可能会导致转移和死亡。虽然大多数肾脏癌在CT扫描中都检测到,但分级是基于侵入性活检或手术的组织学。确定对CT图像的侵略性在临床上很重要,因为它促进了风险分层和治疗计划。这项研究旨在使用机器学习方法来识别与病理学特征相关的放射学特征,以促进评估CT图像而不是组织学上的癌症侵略性。本文提出了一种新型的自动化方法,即按区域(Corrfabr)相关的特征聚集,用于通过利用放射学和相应的不对齐病理学图像之间的相关性来对透明细胞RCC进行分类。 CORRFABR由三个主要步骤组成:(1)特征聚集,其中从放射学和病理图像中提取区域级特征,(2)融合,放射学特征与病理特征相关的放射学特征在区域级别上学习,并且(3)在其中预测的地方学到的相关特征用于仅使用CT作为输入来区分侵略性和顽固的透明细胞RCC。因此,在训练过程中,Corrfabr从放射学和病理学图像中学习,但是在没有病理图像的情况下,Corrfabr将使用CORFABR将侵略性与顽固的透明细胞RCC区分开。 Corrfabr仅比放射学特征改善了分类性能,二进制分类F1分数从0.68(0.04)增加到0.73(0.03)。这证明了将病理疾病特征纳入CT图像上透明细胞RCC侵袭性的分类的潜力。
translated by 谷歌翻译
尽管遥感(RS)社区已经开始预认识到变压器(打算在RS任务上进行微调),但尚不清楚这些模型如何在分配变化下执行。在这里,我们为新的RS Transformer-satvit-v2预算了130万个卫星衍生的RS图像,然后对其进行微调(以及其他五个型号),以调查其在训练过程中未见的分布情况。我们根据源Biome将一个专业标记的土地覆盖数据集分为14个数据集。我们分别在每个生物群上训练每个模型,并在所有其他生物群体上测试它们。总之,这相当于1638年的生物群体转移实验。经过微调后,我们发现SATVIT-V2在分布情况下(匹配生物群)的表现优于SATVIT-V1,而分布(不匹配的生物群落)数据的表现为2.8%。此外,我们发现从线性探测溶液(即利用LPFT [1])初始化微调可将SATVIT-V2的性能提高1.2%,而分布数据的分布数据为2.4%。接下来,我们发现,在分布变化下,预估计的RS变压器比未经预告的模型更好地校准,并且利用LPFT会导致模型校准的进一步改进。最后,我们发现五个分配转移的度量与生物群体转移性能中等相关。我们共享代码和预估计的模型权重。 (https://github.com/antofuller/satvit)
translated by 谷歌翻译
2型糖尿病(T2DM)的早期诊断对于及时的治疗干预措施和生活方式改变至关重要。随着医学成像数据在许多患者群体中变得更广泛可用,我们试图研究是否可以在表格学习分类器模型中利用图像衍生的表型数据来预测T2DM的发病率,而无需使用侵入性血液实验室测量。我们表明,使用图像衍生表型的神经网络和决策树模型都可以预测患者T2DM状态的召回评分高达87.6%。我们还提出了与“ Syntha1c编码器”相同的结构的新颖使用,这些结构能够输出模仿血液血红蛋白A1C经验实验室测量值的可解释值。最后,我们证明了T2DM风险预测模型对输入矢量成分中小扰动的敏感性可用于预测从以前看不见的患者人群中取样的协变量的性能。
translated by 谷歌翻译
现在已经充分理解的是,经过适当注意的数据训练的机器学习模型通常对某些人群表现出不公平和歧视性的行为。传统的算法公平研究主要集中于监督的学习任务,尤其是分类。尽管无监督的学习中的公平性引起了人们的关注,但文献主要解决了连续嵌入的公平表示学习。在本文中,我们相反,使用具有离散潜在变量的概率图形模型专注于无监督的学习。我们为离散的潜在变量开发了一种公平的随机变异推理技术,该技术是通过对旨在尊重交叉性的原理,法律,社会科学和人文科学文学的公平性的关键视角的变异分布的公平惩罚来完成的,该变量是通过对变异分布的公平惩罚来完成的。 ,然后在此惩罚下优化变异参数。我们首先显示了我们方法在基准数据集上使用Na \“ Ive bayes和Gaussian混合模型进行聚类的公平性和公平性的实用性。 - 刑事司法风险评估的使用图形模型,并使用我们的公平方法来防止推论编码不公平的社会偏见。
translated by 谷歌翻译
许多私人保险公司和公共保险公司对听力损失可以直接归因于工作场所中噪音过度暴露的工人进行了补偿。索赔评估过程通常是漫长的,需要从人类审判者那里进行大量努力,这些裁决者必须解释经常通过传真或等效发送的手录制的听力图。在这项工作中,我们提出了与安大略省工作场所安全保险委员会合作开发的解决方案,以简化裁决过程。特别是,我们提出了第一个能够自动从扫描或传真听力学报告中提取听力阈值的听力图数字化算法作为概念验证。该算法将大多数阈值提取到5 dB的精度之内,从而可以大大减少以半监督的方式将听力图转换为数字格式所需的时间,并且是朝着裁决过程自动化的第一步。 GITHUB(https://github.com/greencubic/audiogramDigitization)公开获得了数字化算法的源代码和我们NIHL注释门户的基于桌面的实现。
translated by 谷歌翻译
当我们对优化模型中的不确定参数进行观察以及对协变量的同时观察时,我们研究了数据驱动决策的优化。鉴于新的协变量观察,目标是选择一个决定以此观察为条件的预期成本的决定。我们研究了三个数据驱动的框架,这些框架将机器学习预测模型集成在随机编程样本平均值近似(SAA)中,以近似解决该问题的解决方案。 SAA框架中的两个是新的,并使用了场景生成的剩余预测模型的样本外残差。我们研究的框架是灵活的,并且可以容纳参数,非参数和半参数回归技术。我们在数据生成过程,预测模型和随机程序中得出条件,在这些程序下,这些数据驱动的SaaS的解决方案是一致且渐近最佳的,并且还得出了收敛速率和有限的样本保证。计算实验验证了我们的理论结果,证明了我们数据驱动的公式比现有方法的潜在优势(即使预测模型被误解了),并说明了我们在有限的数据制度中新的数据驱动配方的好处。
translated by 谷歌翻译
机器学习(ML)研究通常集中在模型上,而最突出的数据集已用于日常的ML任务,而不考虑这些数据集对基本问题的广度,困难和忠诚。忽略数据集的基本重要性已引起了重大问题,该问题涉及现实世界中的数据级联以及数据集驱动标准的模型质量饱和,并阻碍了研究的增长。为了解决此问题,我们提出Dataperf,这是用于评估ML数据集和数据集工作算法的基准软件包。我们打算启用“数据棘轮”,其中培训集将有助于评估相同问题的测试集,反之亦然。这种反馈驱动的策略将产生一个良性的循环,该循环将加速以数据为中心的AI。MLCommons协会将维护Dataperf。
translated by 谷歌翻译